#Projeto Final Exemplo ##Carregando Pacotes

vetor_pacotes=c("readr",
                "ggplot2",
                "plotly",
                "e1071",
                "dplyr",
                "Hmisc",
                "DescTools",
                "esquisse",
                "gridExtra",
                "e1071",
                "devtools"
)
#install.packages(vetor_pacotes)

lapply(vetor_pacotes, 
       require, 
       character.only = TRUE)
## [[1]]
## [1] TRUE
## 
## [[2]]
## [1] TRUE
## 
## [[3]]
## [1] TRUE
## 
## [[4]]
## [1] TRUE
## 
## [[5]]
## [1] TRUE
## 
## [[6]]
## [1] TRUE
## 
## [[7]]
## [1] TRUE
## 
## [[8]]
## [1] TRUE
## 
## [[9]]
## [1] TRUE
## 
## [[10]]
## [1] TRUE
## 
## [[11]]
## [1] TRUE
#install_github("haozhu233/kableExtra")

library(kableExtra)

#Importacao do banco do ENADE/INEP

enade2017 = read_csv2("MICRODADOS_ENADE_2017.txt") 

##Selecionando as variaveis desejadas

microdados_enade_filtrados= enade2017 %>% dplyr::select(CO_GRUPO,CO_REGIAO_CURSO,NU_IDADE,
                                                        TP_SEXO,CO_TURNO_GRADUACAO,NT_GER,
                                                        QE_I01,QE_I02,QE_I08,
                                                        QE_I21,QE_I23,NT_OBJ_FG, 
                                                        NT_OBJ_CE
)      

##Selecionando o curso de ADS

microdados_ti= microdados_enade_filtrados %>% filter(CO_GRUPO==6409) 

##Transformando as variaveis (Colocando os labels)

microdados_ti = microdados_ti %>% mutate(estado_civil2 = case_when( QE_I01 == "A" ~ "Solteiro(a)",
                                                                    QE_I01 == "B" ~ "Casado(a)",
                                                                    QE_I01 == "C" ~ "Separado(a)",
                                                                    QE_I01 == "D" ~ "Viúvo(a)",
                                                                    QE_I01 == "E" ~ "Outro"
)) 

microdados_ti = microdados_ti %>% mutate(regiao = case_when( CO_REGIAO_CURSO == 1 ~ "Norte",
                                                             CO_REGIAO_CURSO == 2 ~ "Nordeste",
                                                             CO_REGIAO_CURSO == 3 ~ "Sudeste",
                                                             CO_REGIAO_CURSO == 4 ~ "Sul",
                                                             CO_REGIAO_CURSO == 5 ~ "Centro-Oeste"
)) 

#sexo
microdados_ti = microdados_ti %>% mutate(sexo = case_when( TP_SEXO == "M" ~ "Masculino",
                                                           TP_SEXO == "F" ~ "Feminino"
)) 

microdados_ti = microdados_ti %>% mutate(hestudos = case_when( QE_I23 == "A" ~ "Nenhuma, apenas assisto as aulas",
                                                               QE_I23 == "B" ~ "De uma a três",
                                                               QE_I23 == "C" ~ "De quatro a sete",
                                                               QE_I23 == "D" ~ "De oito a doze",
                                                               QE_I23 == "E" ~ "Mais de doze"
)) 

microdados_ti = microdados_ti %>% mutate(turno = case_when( CO_TURNO_GRADUACAO == 1 ~ "MANHA",
                                            CO_TURNO_GRADUACAO == 2 ~ "TARDE",
                                            CO_TURNO_GRADUACAO == 3 ~ "INTERINO",
                                            CO_TURNO_GRADUACAO == 4 ~ "NOITE"
))

microdados_ti = microdados_ti %>% mutate(raca = case_when( QE_I02 == "A" ~ "BRANCO",
                                           QE_I02 == "B" ~ "NEGRO",
                                           QE_I02 == "C" ~ "AMARELO",
                                           QE_I02 == "D" ~ "PARDO",
                                           QE_I02 == "E" ~ "INDIGINA",
                                           QE_I02 == "F" ~ "NAO DECLARADO"
))

microdados_ti = microdados_ti %>% mutate(superior = case_when( QE_I21 == "A" ~ "SIM",
                                                               QE_I21 == "B" ~ "NÃO"
))

##Data quality e Bloco da analise descritiva das variaveis (CO_TURNO_GRADUACAO)

describe(microdados_ti$CO_TURNO_GRADUACAO)
## microdados_ti$CO_TURNO_GRADUACAO 
##        n  missing distinct     Info     Mean      Gmd 
##     4566        0        4     0.59    3.593   0.6569 
##                                   
## Value          1     2     3     4
## Frequency    310    47   836  3373
## Proportion 0.068 0.010 0.183 0.739
unique(microdados_ti$CO_TURNO_GRADUACAO) %>% kbl %>% kable_material_dark(full_width = F)
x
4
3
1
2
##Data quality e Bloco da analise descritiva das variaveis (QE_I02)
describe(microdados_ti$QE_I02)
## microdados_ti$QE_I02 
##        n  missing distinct 
##     3527     1039        6 
## 
## lowest : A B C D E, highest: B C D E F
##                                               
## Value          A     B     C     D     E     F
## Frequency   2021   284    62  1039    14   107
## Proportion 0.573 0.081 0.018 0.295 0.004 0.030
unique(microdados_ti$QE_I02) %>% kbl %>% kable_material_dark(full_width = F)
x
A
NA
D
F
B
C
E
##Data quality e Bloco da analise descritiva das variaveis
describe(microdados_ti$estado_civil2)
## microdados_ti$estado_civil2 
##        n  missing distinct 
##     3527     1039        5 
## 
## lowest : Casado(a)   Outro       Separado(a) Solteiro(a) Viúvo(a)   
## highest: Casado(a)   Outro       Separado(a) Solteiro(a) Viúvo(a)   
##                                                                       
## Value        Casado(a)       Outro Separado(a) Solteiro(a)    Viúvo(a)
## Frequency         1088         166         119        2149           5
## Proportion       0.308       0.047       0.034       0.609       0.001
unique(microdados_ti$estado_civil2) %>% kbl %>% kable_material_dark(full_width = F)
x
Solteiro(a)
NA
Casado(a)
Outro
Separado(a)
Viúvo(a)
#Contabilizando os Na´s
resumo_nas=microdados_ti %>%
  select(everything()) %>%  
  summarise_all(list(~sum(is.na(.))))

#Removendo  Na´S De todas As variáveis que possuem NA
microdados_gestao_ti_sem_NA=microdados_ti %>% na.omit()

#Verificando de foram retirados os NA´S
resumo_nas=microdados_gestao_ti_sem_NA %>%
  select(everything()) %>%  
  summarise_all(list(~sum(is.na(.))))
resumo_nas %>% kbl %>% kable_material_dark(full_width = F)
CO_GRUPO CO_REGIAO_CURSO NU_IDADE TP_SEXO CO_TURNO_GRADUACAO NT_GER QE_I01 QE_I02 QE_I08 QE_I21 QE_I23 NT_OBJ_FG NT_OBJ_CE estado_civil2 regiao sexo hestudos turno raca superior
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
microdados_gestao_ti_sem_NA %>% 
  select(NT_OBJ_CE) %>% 
  summarise(  quantidade=n(),
              media = mean(NT_OBJ_CE),
              mediana = median(NT_OBJ_CE),
              moda=Mode(NT_OBJ_CE),
              cv=sd(NT_OBJ_CE)/media*100,
              assimetria=skewness(NT_OBJ_CE),
              curtose=kurtosis(NT_OBJ_CE)
  ) %>% 
  arrange(desc(mediana))  %>% 
  kbl %>% 
  kable_material_dark(full_width = F)
quantidade media mediana moda cv assimetria curtose
3203 47.74927 47.6 52.4 32.89095 -0.0562359 -0.2737436
#Estatísticas resumo 
summary(microdados_gestao_ti_sem_NA$NT_OBJ_CE) 
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    0.00   38.10   47.60   47.75   57.10   95.20

##Gráficos da análise descritiva para a variável nota dos alunos de ADS

g_hist=ggplot(microdados_gestao_ti_sem_NA,aes(x=NT_OBJ_CE)) + 
  geom_histogram(color = "black",fill="lightblue",bins =50,aes(y=(..count..)/sum(..count..)))+
  ggtitle("Histograma da nota dos alunos de gestao de ti (ADS) ")+
  xlab("nota") +
  ylab("Frequência relativa")

g_densidade=ggplot(microdados_gestao_ti_sem_NA,aes(x=NT_OBJ_CE))+
  geom_density(col=2,size = 1, aes(y = 27 * (..count..)/sum(..count..))) +
  ggtitle("Curva de densidade da nota dos alunos de gestao de ti") +
  xlab("Nota dos alunos de ADS") +
  ylab("Frequência relativa")

g_hist_densidade = ggplot(microdados_gestao_ti_sem_NA,aes(x=NT_OBJ_CE)) + 
  geom_histogram(color = "black",fill="lightblue",bins =50,aes(y=(..count..)/sum(..count..)))+
  geom_density(col=2,size = 1, aes(y = 27 * (..count..)/sum(..count..))) +
  ggtitle("Histograma e curva de densidade da nota dos alunos de gestao de ti")+
  xlab("Nota dos alunos de ADS") +
  ylab("Frequência relativa")


grid.arrange( g_hist,
              g_densidade,
              g_hist_densidade,
              nrow=3,ncol=1)

g_hist_densidade = ggplot(microdados_gestao_ti_sem_NA,aes(x=CO_TURNO_GRADUACAO)) + 
  geom_histogram(color = "black",fill="lightblue",bins =50,aes(y=(..count..)/sum(..count..)))+
  geom_density(col=2,size = 1, aes(y = 27 * (..count..)/sum(..count..))) +
  ggtitle("Histograma e curva de densidade da nota dos alunos de gestao de ti")+
  xlab("Nota dos alunos de ADS") +
  ylab("Frequência relativa")
g_hist_densidade

ggplotly(g_hist_densidade)
#grafico do histograma de densidade das CO_REGIAO_CURSO
#CO_REGIAO_CURSO    Codigo da regiao de funcionamento do curso  
#1 = Norte
#2 = Nordeste
#3 = Sudeste
#4 = Sul
#5 = Centro-Oeste
g_hist_densidade = ggplot(microdados_gestao_ti_sem_NA,aes(x=CO_REGIAO_CURSO)) + 
  geom_histogram(color = "black",fill="lightblue",bins =20,aes(y=(..count..)/sum(..count..)))+
  geom_density(col=2,size = 1, aes(y = 30 * (..count..)/sum(..count..))) +
  ggtitle("Histograma e curva de densidade dos alunos gestao de T.I")+
  xlab("regiao") +
  ylab("Frequencia relativa")
g_hist_densidade

ggplotly(g_hist_densidade)

Continuação Análise Descritiva das variáveis

#Comparando as médias por sexo e estado civil

#Comparar as médias por sexo e estado civil
require(dplyr)
microdados_ti_mod2= microdados_gestao_ti_sem_NA %>% 
  select(estado_civil2,NT_GER,sexo) %>% 
  group_by(sexo,estado_civil2) %>% 
  summarise(  quantidade=n(),
              media = mean(NT_GER,na.rm = T),
              mediana = median(NT_GER,na.rm = T),
              cv=sd(NT_GER,na.rm=T)/media*100,
              amplitude_interquartil=IQR(NT_GER)) %>% 
  arrange(desc(mediana))
microdados_ti_mod2  %>% kbl %>% kable_material_dark(full_width = F)
sexo estado_civil2 quantidade media mediana cv amplitude_interquartil
Masculino Outro 123 49.16341 50.30 28.17411 18.650
Masculino Separado(a) 86 48.57674 48.25 29.83340 20.525
Feminino Outro 25 47.55600 47.90 38.16611 20.500
Masculino Casado(a) 854 46.72155 46.95 30.19347 18.400
Masculino Solteiro(a) 1606 45.06880 45.10 28.85773 18.300
Feminino Viúvo(a) 1 43.90000 43.90 NA 0.000
Feminino Solteiro(a) 359 44.02758 43.80 28.38137 17.250
Masculino Viúvo(a) 4 42.72500 43.20 33.58798 13.575
Feminino Separado(a) 19 45.39474 42.60 29.24315 12.050
Feminino Casado(a) 126 41.40000 41.30 28.69015 14.750
#Tabulação cruzada
table(microdados_gestao_ti_sem_NA$estado_civil2,microdados_gestao_ti_sem_NA$sexo)  %>% kbl %>% kable_material_dark(full_width = F)
Feminino Masculino
Casado(a) 126 854
Outro 25 123
Separado(a) 19 86
Solteiro(a) 359 1606
Viúvo(a) 1 4
#Tabulação cruzada proporção
prop.table(table(microdados_gestao_ti_sem_NA$estado_civil2,microdados_gestao_ti_sem_NA$sexo))  %>% kbl %>% kable_material_dark(full_width = F)
Feminino Masculino
Casado(a) 0.0393381 0.2666250
Outro 0.0078052 0.0384015
Separado(a) 0.0059319 0.0268498
Solteiro(a) 0.1120824 0.5014049
Viúvo(a) 0.0003122 0.0012488
#assimetria e curtose

dados_casados = microdados_gestao_ti_sem_NA %>% 
  select(estado_civil2,NT_GER,sexo) %>% 
  group_by(estado_civil2) %>% 
  #filter(estado_civil=="Casado(a)") %>% 
  summarise(  quantidade=n(),
              media = mean(NT_GER),
              mediana = median(NT_GER),
              cv=sd(NT_GER)/media*100,
              amplitude_interquartil=IQR(NT_GER),
              assimetria=skewness(NT_GER),
              curtose=kurtosis(NT_GER)
  ) %>% 
  
  arrange(desc(cv))

dados_casados  %>% kbl %>% kable_material_dark(full_width = F)
estado_civil2 quantidade media mediana cv amplitude_interquartil assimetria curtose
Casado(a) 980 46.03735 46.05 30.29977 18.350 0.0051892 -0.1770513
Outro 148 48.89189 50.30 29.87727 18.625 -0.4090641 0.3204445
Separado(a) 105 48.00095 47.10 29.73104 19.300 0.1864205 -0.3926856
Viúvo(a) 5 42.96000 43.90 28.95477 6.600 -0.1300795 -1.5035316
Solteiro(a) 1965 44.87858 44.90 28.78271 18.100 0.0295107 -0.2828212

Continuação Análise Descritiva das variáveis

#Comparando as médias por sexo e QE_I02 (cor)

#Comparar as médias por sexo e QE_I02 (cor)
require(dplyr)
microdados_ti_mod3= microdados_gestao_ti_sem_NA %>% 
  select(QE_I02,NT_GER,sexo) %>% 
  group_by(sexo,QE_I02) %>% 
  summarise(  quantidade=n(),
              media = mean(NT_GER,na.rm = T),
              mediana = median(NT_GER,na.rm = T),
              cv=sd(NT_GER,na.rm=T)/media*100,
              amplitude_interquartil=IQR(NT_GER)) %>% 
  arrange(desc(mediana))
microdados_ti_mod3  %>% kbl %>% kable_material_dark(full_width = F)
sexo QE_I02 quantidade media mediana cv amplitude_interquartil
Masculino A 1547 46.95048 47.10 29.14458 18.450
Masculino F 86 46.10465 46.95 31.98529 20.125
Masculino B 220 45.17364 45.80 27.91576 17.125
Feminino A 285 44.59789 44.50 29.01743 16.600
Feminino B 40 45.11500 44.40 26.99125 13.200
Feminino C 14 41.30714 44.30 33.47317 14.700
Masculino D 770 44.13909 43.80 29.06167 18.075
Feminino F 13 48.30769 43.10 28.63910 4.400
Masculino C 41 44.26098 43.10 38.31674 27.800
Feminino D 175 41.81086 41.60 28.89791 16.250
Masculino E 9 37.65556 35.10 29.80431 16.900
Feminino E 3 26.46667 28.00 15.20908 3.800
#Tabulação cruzada
table(microdados_gestao_ti_sem_NA$QE_I02,microdados_gestao_ti_sem_NA$sexo)  %>% kbl %>% kable_material_dark(full_width = F)
Feminino Masculino
A 285 1547
B 40 220
C 14 41
D 175 770
E 3 9
F 13 86
#Tabulação cruzada proporção
prop.table(table(microdados_gestao_ti_sem_NA$QE_I02,microdados_gestao_ti_sem_NA$sexo))  %>% kbl %>% kable_material_dark(full_width = F)
Feminino Masculino
A 0.0889791 0.4829847
B 0.0124883 0.0686856
C 0.0043709 0.0128005
D 0.0546363 0.2403996
E 0.0009366 0.0028099
F 0.0040587 0.0268498
#assimetria e curtose

dados_cor = microdados_gestao_ti_sem_NA %>% 
  select(QE_I02,NT_GER,sexo) %>% 
  group_by(QE_I02) %>% 
  #filter(estado_civil=="Casado(a)") %>% 
  summarise(  quantidade=n(),
              media = mean(NT_GER),
              mediana = median(NT_GER),
              cv=sd(NT_GER)/media*100,
              amplitude_interquartil=IQR(NT_GER),
              assimetria=skewness(NT_GER),
              curtose=kurtosis(NT_GER)
  ) %>% 
  
  arrange(desc(cv))

dados_cor  %>% kbl %>% kable_material_dark(full_width = F)
QE_I02 quantidade media mediana cv amplitude_interquartil assimetria curtose
C 55 43.50909 43.10 37.11445 23.250 -0.0507839 -0.8598907
E 12 34.85833 31.95 31.44621 15.525 0.5507462 -1.0171606
F 99 46.39394 44.80 31.42933 19.100 0.2673427 -0.2727248
A 1832 46.58450 46.70 29.18150 18.200 -0.0494949 -0.0787088
D 945 43.70794 43.40 29.09968 18.000 0.1006452 -0.3865148
B 260 45.16462 45.80 27.72475 16.750 -0.0299225 -0.3893214

Continuação Análise Descritiva das variáveis

#Comparando as médias por sexo e CO_TURNO_GRADUACAO

#Comparar as médias por sexo e CO_TURNO_GRADUACAO (cor)
require(dplyr)
microdados_ti_mod4= microdados_gestao_ti_sem_NA %>% 
  select(CO_TURNO_GRADUACAO,NT_GER,sexo) %>% 
  group_by(sexo,CO_TURNO_GRADUACAO) %>% 
  summarise(  quantidade=n(),
              media = mean(NT_GER,na.rm = T),
              mediana = median(NT_GER,na.rm = T),
              cv=sd(NT_GER,na.rm=T)/media*100,
              amplitude_interquartil=IQR(NT_GER)) %>% 
  arrange(desc(mediana))
microdados_ti_mod4  %>% kbl %>% kable_material_dark(full_width = F)
sexo CO_TURNO_GRADUACAO quantidade media mediana cv amplitude_interquartil
Masculino 3 464 49.57457 49.5 27.94004 18.45
Feminino 1 57 46.81579 47.4 21.97659 10.20
Masculino 1 191 47.74660 46.6 27.86917 17.45
Masculino 4 1991 44.92059 45.2 29.59018 18.45
Feminino 3 81 46.68025 45.1 27.96892 14.20
Feminino 4 381 42.53727 42.4 30.17869 17.10
Masculino 2 27 41.37778 41.8 27.33313 17.20
Feminino 2 11 41.93636 41.5 31.41049 23.45
#Tabulação cruzada
table(microdados_gestao_ti_sem_NA$CO_TURNO_GRADUACAO,microdados_gestao_ti_sem_NA$sexo)  %>% kbl %>% kable_material_dark(full_width = F)
Feminino Masculino
57 191
11 27
81 464
381 1991
#Tabulação cruzada proporção
prop.table(table(microdados_gestao_ti_sem_NA$CO_TURNO_GRADUACAO,microdados_gestao_ti_sem_NA$sexo))  %>% kbl %>% kable_material_dark(full_width = F)
Feminino Masculino
0.0177958 0.0596316
0.0034343 0.0084296
0.0252888 0.1448642
0.1189510 0.6216047
#assimetria e curtose

dados_CO_TURNO_GRADUACAO = microdados_gestao_ti_sem_NA %>% 
  select(CO_TURNO_GRADUACAO,NT_GER,sexo) %>% 
  group_by(CO_TURNO_GRADUACAO) %>% 
  summarise(  quantidade=n(),
              media = mean(NT_GER),
              mediana = median(NT_GER),
              cv=sd(NT_GER)/media*100,
              amplitude_interquartil=IQR(NT_GER),
              assimetria=skewness(NT_GER),
              curtose=kurtosis(NT_GER)
  ) %>% 
  
  arrange(desc(cv))

dados_CO_TURNO_GRADUACAO  %>% kbl %>% kable_material_dark(full_width = F)
CO_TURNO_GRADUACAO quantidade media mediana cv amplitude_interquartil assimetria curtose
4 2372 44.53777 44.70 29.74186 18.500 0.0360338 -0.2607879
2 38 41.53947 41.65 28.16142 18.325 0.1004615 -1.0555640
3 545 49.14440 49.10 28.00501 17.900 -0.1303176 0.1136487
1 248 47.53266 46.75 26.64108 16.625 0.0628490 -0.1712041

#Análises Gráficas - Comparando as médias por sexo e estado civil

#Histograma
dados=microdados_gestao_ti_sem_NA
grafico_histograma1 = ggplot(dados, aes(x=NT_GER,fill=estado_civil2)) + 
  geom_histogram() +
  ggtitle("Gráfico histograma da Nota por estado civil") +
  xlab("Notas") +
  ylab("Frequência simples") +
  facet_grid(~estado_civil2)

ggplotly(grafico_histograma1)
dados=microdados_gestao_ti_sem_NA
grafico_boxplot1 = ggplot(dados, aes(x=estado_civil2,y=NT_GER,fill=estado_civil2)) + 
  geom_boxplot() +
  ggtitle("Gráfico de Box-plot da Nota por Estado civil e Sexo")+
  xlab("Estado civil") +
  ylab("Notas") +
  facet_grid(~sexo)+
  theme(axis.text.x = element_text(angle = 90, vjust = 0.5, hjust=1))


ggplotly(grafico_boxplot1)

#Análises Gráficas - Comparando as médias por sexo e cor QE_I02

#Histograma
dados=microdados_gestao_ti_sem_NA
grafico_histograma1 = ggplot(dados, aes(x=NT_GER,fill=QE_I02)) + 
  geom_histogram() +
  ggtitle("Gráfico histograma da Nota por cor") +
  xlab("Notas") +
  ylab("Frequência simples") +
  facet_grid(~QE_I02)

ggplotly(grafico_histograma1)
dados=microdados_gestao_ti_sem_NA
grafico_boxplot1 = ggplot(dados, aes(x=QE_I02,y=NT_GER,fill=QE_I02)) + 
  geom_boxplot() +
  ggtitle("Gráfico de Box-plot da Nota por cor")+
  xlab("Estado civil") +
  ylab("Notas") +
  facet_grid(~sexo)+
  theme(axis.text.x = element_text(angle = 90, vjust = 0.5, hjust=1))


ggplotly(grafico_boxplot1)

#Análises Gráficas - Comparando as médias por sexo e CO_TURNO_GRADUACAO

#Histograma
dados=microdados_gestao_ti_sem_NA
grafico_histograma1 = ggplot(dados, aes(x=NT_GER,fill=CO_TURNO_GRADUACAO)) + 
  geom_histogram() +
  ggtitle("Gráfico histograma da Nota por TURNO_GRADUACAO") +
  xlab("Notas") +
  ylab("Frequência simples") +
  facet_grid(~QE_I02)

ggplotly(grafico_histograma1)
dados=microdados_gestao_ti_sem_NA
grafico_boxplot1 = ggplot(dados, aes(x=CO_TURNO_GRADUACAO,y=NT_GER,fill=CO_TURNO_GRADUACAO)) + 
  geom_boxplot() +
  ggtitle("Gráfico de Box-plot da Nota por TURNO_GRADUACAO")+
  xlab("Estado civil") +
  ylab("Notas") +
  facet_grid(~sexo)+
  theme(axis.text.x = element_text(angle = 90, vjust = 0.5, hjust=1))


ggplotly(grafico_boxplot1)

#Comparando as médias por sexo estado civil nota horas de estudo e QE_I02

microdados_ti_mod3= microdados_gestao_ti_sem_NA %>% 
  select(estado_civil2,NT_GER,QE_I02,hestudos,sexo) %>% 
  group_by(sexo,QE_I02) %>% 
  summarise(quantidade=n(),
            media = mean(NT_GER),
            mediana = median(NT_GER),
            cv=sd(NT_GER)/media*100,
            amplitude_interquartil=IQR(NT_GER),
            assimetria=skewness(NT_GER),
            curtose=kurtosis(NT_GER)) %>% 
  arrange(desc(media))

microdados_ti_mod3  %>% kbl %>% kable_material_dark(full_width = F)
sexo QE_I02 quantidade media mediana cv amplitude_interquartil assimetria curtose
Feminino F 13 48.30769 43.10 28.63910 4.400 1.5146867 1.2320144
Masculino A 1547 46.95048 47.10 29.14458 18.450 -0.0371676 -0.1276886
Masculino F 86 46.10465 46.95 31.98529 20.125 0.1184811 -0.5981275
Masculino B 220 45.17364 45.80 27.91576 17.125 -0.0748052 -0.4470546
Feminino B 40 45.11500 44.40 26.99125 13.200 0.2443317 -0.1707388
Feminino A 285 44.59789 44.50 29.01743 16.600 -0.1824233 0.1203553
Masculino C 41 44.26098 43.10 38.31674 27.800 -0.0242581 -1.0422993
Masculino D 770 44.13909 43.80 29.06167 18.075 0.0744129 -0.3882978
Feminino D 175 41.81086 41.60 28.89791 16.250 0.1839471 -0.3956675
Feminino C 14 41.30714 44.30 33.47317 14.700 -0.4407421 -0.8054410
Masculino E 9 37.65556 35.10 29.80431 16.900 0.2125691 -1.3598556
Feminino E 3 26.46667 28.00 15.20908 3.800 -0.3256488 -2.3333333
#Tabulação cruzada
table(microdados_gestao_ti_sem_NA$QE_I02,microdados_gestao_ti_sem_NA$sexo)  %>% kbl %>% kable_material_dark(full_width = F)
Feminino Masculino
A 285 1547
B 40 220
C 14 41
D 175 770
E 3 9
F 13 86
#Tabulação cruzada proporção
prop.table(table(microdados_gestao_ti_sem_NA$QE_I02,microdados_gestao_ti_sem_NA$sexo))%>% kbl %>% kable_material_dark(full_width = F)
Feminino Masculino
A 0.0889791 0.4829847
B 0.0124883 0.0686856
C 0.0043709 0.0128005
D 0.0546363 0.2403996
E 0.0009366 0.0028099
F 0.0040587 0.0268498

#Comparando as médias por sexo e região

microdados_ti_mod3= microdados_gestao_ti_sem_NA %>% 
  select(estado_civil2,NT_GER,regiao,hestudos,sexo) %>% 
  group_by(sexo,regiao) %>% 
  summarise(quantidade=n(),
            media = mean(NT_GER),
            mediana = median(NT_GER),
            cv=sd(NT_GER)/media*100,
            amplitude_interquartil=IQR(NT_GER),
            assimetria=skewness(NT_GER),
            curtose=kurtosis(NT_GER)) %>% 
  arrange(desc(media))

microdados_ti_mod3  %>% kbl %>% kable_material_dark(full_width = F)
sexo regiao quantidade media mediana cv amplitude_interquartil assimetria curtose
Masculino Sul 627 47.41053 47.10 30.11163 19.200 -0.0479805 -0.0831504
Masculino Sudeste 1722 45.81562 46.00 29.02953 18.175 0.0192646 -0.3054807
Feminino Sul 93 45.49247 45.00 30.19974 19.100 0.0564352 -0.4525371
Masculino Nordeste 178 44.73483 44.50 28.25009 17.875 -0.1200402 -0.5106395
Feminino Sudeste 347 44.00720 43.90 27.68243 16.250 -0.1505436 0.0784801
Feminino Nordeste 47 43.79149 43.10 29.20459 12.950 0.8189954 1.1235927
Masculino Norte 52 42.75000 41.45 26.75028 15.725 0.2424744 -0.5459745
Masculino Centro-Oeste 94 41.16596 42.45 31.36952 19.350 -0.0707468 -0.7589201
Feminino Norte 15 38.26000 38.10 27.31099 11.900 0.6440282 0.0668004
Feminino Centro-Oeste 28 35.15000 34.95 39.30690 16.950 0.3570045 -0.4590208
#Tabulação cruzada
table(microdados_gestao_ti_sem_NA$regiao,microdados_gestao_ti_sem_NA$sexo)  %>% kbl %>% kable_material_dark(full_width = F)
Feminino Masculino
Centro-Oeste 28 94
Nordeste 47 178
Norte 15 52
Sudeste 347 1722
Sul 93 627
#Tabulação cruzada proporção
prop.table(table(microdados_gestao_ti_sem_NA$regiao,microdados_gestao_ti_sem_NA$sexo))%>% kbl %>% kable_material_dark(full_width = F)
Feminino Masculino
Centro-Oeste 0.0087418 0.0293475
Nordeste 0.0146737 0.0555729
Norte 0.0046831 0.0162348
Sudeste 0.1083359 0.5376210
Sul 0.0290353 0.1957540

#Comparando as médias por sexo e estado civil

microdados_ti_mod3= microdados_gestao_ti_sem_NA %>% 
  select(estado_civil2,NT_GER,regiao,hestudos,sexo) %>% 
  group_by(sexo,estado_civil2) %>% 
  summarise(quantidade=n(),
            media = mean(NT_GER),
            mediana = median(NT_GER),
            cv=sd(NT_GER)/media*100,
            amplitude_interquartil=IQR(NT_GER),
            assimetria=skewness(NT_GER),
            curtose=kurtosis(NT_GER)) %>% 
  arrange(desc(media))

microdados_ti_mod3  %>% kbl %>% kable_material_dark(full_width = F)
sexo estado_civil2 quantidade media mediana cv amplitude_interquartil assimetria curtose
Masculino Outro 123 49.16341 50.30 28.17411 18.650 -0.1975440 -0.0559511
Masculino Separado(a) 86 48.57674 48.25 29.83340 20.525 0.1733441 -0.5374320
Feminino Outro 25 47.55600 47.90 38.16611 20.500 -0.7456214 0.1052889
Masculino Casado(a) 854 46.72155 46.95 30.19347 18.400 -0.0448474 -0.1525165
Feminino Separado(a) 19 45.39474 42.60 29.24315 12.050 0.1305827 0.0589552
Masculino Solteiro(a) 1606 45.06880 45.10 28.85773 18.300 0.0213308 -0.3369902
Feminino Solteiro(a) 359 44.02758 43.80 28.38137 17.250 0.0536845 -0.0237441
Feminino Viúvo(a) 1 43.90000 43.90 NA 0.000 NaN NaN
Masculino Viúvo(a) 4 42.72500 43.20 33.58798 13.575 -0.0691151 -1.9497688
Feminino Casado(a) 126 41.40000 41.30 28.69015 14.750 0.1445755 -0.4119650
#Tabulação cruzada
table(microdados_gestao_ti_sem_NA$estado_civil2,microdados_gestao_ti_sem_NA$sexo)  %>% kbl %>% kable_material_dark(full_width = F)
Feminino Masculino
Casado(a) 126 854
Outro 25 123
Separado(a) 19 86
Solteiro(a) 359 1606
Viúvo(a) 1 4
#Tabulação cruzada proporção
prop.table(table(microdados_gestao_ti_sem_NA$estado_civil2,microdados_gestao_ti_sem_NA$sexo))%>% kbl %>% kable_material_dark(full_width = F)
Feminino Masculino
Casado(a) 0.0393381 0.2666250
Outro 0.0078052 0.0384015
Separado(a) 0.0059319 0.0268498
Solteiro(a) 0.1120824 0.5014049
Viúvo(a) 0.0003122 0.0012488

#Análises Gráficas - Comparando as médias por sexo e região

#Histograma
dados=microdados_gestao_ti_sem_NA
grafico_histograma2 = ggplot(dados, aes(x=NT_GER,fill=regiao)) + 
  geom_histogram()+
  ggtitle("Gráfico histograma da Nota por região e sexo" )+
  xlab("Notas") +
  ylab("Frequência simples") +
  facet_grid(~sexo)

ggplotly(grafico_histograma2)
#box-plot
dados=microdados_gestao_ti_sem_NA
grafico_boxplot2 = ggplot(dados, aes(x=regiao,y=NT_GER,fill=regiao)) + 
  geom_boxplot() +
  ggtitle("Gráfico boxplot da Nota por 
          região e sexo")+
  ylab("Notas") +
  facet_grid(~sexo)+
  theme(axis.text.x = element_text(angle = 90, vjust = 0.5, hjust=1))

ggplotly(grafico_boxplot2)

#Consolidando os gráficos

grid.arrange( grafico_histograma1,
              grafico_boxplot1,
              grafico_histograma2,
              grafico_boxplot2,
              nrow=2,ncol=2)

#Análises Gráficas - Comparando as médias por sexo e QE_I02 (raca)

#Histograma
dados=microdados_gestao_ti_sem_NA
grafico_histograma2 = ggplot(dados, aes(x=NT_GER,fill=QE_I02)) + 
  geom_histogram()+
  ggtitle("Gráfico histograma da Nota por sexo e raca" )+
  xlab("Notas") +
  ylab("Frequência simples") +
  facet_grid(~sexo)

ggplotly(grafico_histograma2)
#box-plot
dados=microdados_gestao_ti_sem_NA
grafico_boxplot2 = ggplot(dados, aes(x=QE_I02,y=NT_GER,fill=QE_I02)) + 
  geom_boxplot() +
  ggtitle("Gráfico boxplot da Nota por 
          raca e sexo")+
  ylab("Notas") +
  facet_grid(~sexo)+
  theme(axis.text.x = element_text(angle = 90, vjust = 0.5, hjust=1))

ggplotly(grafico_boxplot2)

#Consolidando os gráficos

grid.arrange( grafico_histograma1,
              grafico_boxplot1,
              grafico_histograma2,
              grafico_boxplot2,
              nrow=2,ncol=2)

#Análises Gráficas - Comparando as médias por sexo e TURNO

#Histograma
dados=microdados_gestao_ti_sem_NA
grafico_histograma2 = ggplot(dados, aes(x=NT_GER,fill=CO_TURNO_GRADUACAO)) + 
  geom_histogram()+
  ggtitle("Gráfico histograma da Nota por sexo e turno" )+
  xlab("Notas") +
  ylab("Frequência simples") +
  facet_grid(~sexo)

ggplotly(grafico_histograma2)
#box-plot
dados=microdados_gestao_ti_sem_NA
grafico_boxplot2 = ggplot(dados, aes(x=QE_I02,y=CO_TURNO_GRADUACAO,fill=CO_TURNO_GRADUACAO)) + 
  geom_boxplot() +
  ggtitle("Gráfico boxplot da Nota por 
          turno e sexo")+
  ylab("Notas") +
  facet_grid(~sexo)+
  theme(axis.text.x = element_text(angle = 90, vjust = 0.5, hjust=1))

ggplotly(grafico_boxplot2)

#Consolidando os gráficos

grid.arrange( grafico_histograma1,
              grafico_boxplot1,
              grafico_histograma2,
              grafico_boxplot2,
              nrow=2,ncol=2)

#Análises Gráficas - Comparando as médias por estado civil e TURNO

#Histograma
dados=microdados_gestao_ti_sem_NA
grafico_histograma2 = ggplot(dados, aes(x=NT_GER,fill=CO_TURNO_GRADUACAO)) + 
  geom_histogram()+
  ggtitle("Gráfico histograma da Nota por sexo e turno" )+
  xlab("Notas") +
  ylab("Frequência simples") +
  facet_grid(~estado_civil2)

ggplotly(grafico_histograma2)
#box-plot
dados=microdados_gestao_ti_sem_NA
grafico_boxplot2 = ggplot(dados, aes(x=QE_I02,y=CO_TURNO_GRADUACAO,fill=CO_TURNO_GRADUACAO)) + 
  geom_boxplot() +
  ggtitle("Gráfico boxplot da Nota por 
          turno e sexo")+
  ylab("Notas") +
  facet_grid(~estado_civil2)+
  theme(axis.text.x = element_text(angle = 90, vjust = 0.5, hjust=1))

ggplotly(grafico_boxplot2)

#Consolidando os gráficos

grid.arrange( grafico_histograma1,
              grafico_boxplot1,
              grafico_histograma2,
              grafico_boxplot2,
              nrow=2,ncol=2)

#Análises Gráficas - Comparando as médias por estado civil e QE_I02 (raca)

#Histograma
dados=microdados_gestao_ti_sem_NA
grafico_histograma2 = ggplot(dados, aes(x=NT_GER,fill=QE_I02)) + 
  geom_histogram()+
  ggtitle("Gráfico histograma da Nota por sexo e turno" )+
  xlab("Notas") +
  ylab("Frequência simples") +
  facet_grid(~estado_civil2)

ggplotly(grafico_histograma2)
#box-plot
dados=microdados_gestao_ti_sem_NA
grafico_boxplot2 = ggplot(dados, aes(x=QE_I02,y=QE_I02,fill=QE_I02)) + 
  geom_boxplot() +
  ggtitle("Gráfico boxplot da Nota por 
          turno e sexo")+
  ylab("Notas") +
  facet_grid(~estado_civil2)+
  theme(axis.text.x = element_text(angle = 90, vjust = 0.5, hjust=1))

ggplotly(grafico_boxplot2)

#Consolidando os gráficos

grid.arrange( grafico_histograma1,
              grafico_boxplot1,
              grafico_histograma2,
              grafico_boxplot2,
              nrow=2,ncol=2)